Mineria de textos

Procés d'extracció de textos

La mineria de text, la mineria de dades de text (TDM) o l'anàlisi de text és el procés d'obtenció d'informació d'alta qualitat a partir del text. Implica "la descoberta per ordinador d'informació nova, prèviament desconeguda, mitjançant l'extracció automàtica d'informació de diferents recursos escrits".[1] Els recursos escrits poden incloure llocs web, llibres, correus electrònics, ressenyes i articles. La informació d'alta qualitat s'obté normalment mitjançant l'elaboració de patrons i tendències mitjançant mitjans com l'aprenentatge de patrons estadístics. Segons Hotho et al. (2005) podem distingir entre tres perspectives diferents de la mineria de textos: extracció d'informació, mineria de dades i un procés de descobriment de coneixement en bases de dades (KDD). La mineria de textos sol implicar el procés d'estructurar el text d'entrada (generalment anàlisi, juntament amb l'addició d'algunes característiques lingüístiques derivades i l'eliminació d'altres, i la posterior inserció en una base de dades), la derivació de patrons dins de les dades estructurades i, finalment, l'avaluació i la interpretació. de la sortida. "Alta qualitat" en la mineria de text normalment es refereix a alguna combinació de rellevància, novetat i interès. Les tasques típiques d'extracció de text inclouen la categorització de text, l'agrupació de text, l'extracció de conceptes/entitats, la producció de taxonomies granulars, l'anàlisi de sentiments, el resum de documents i el modelatge de relacions d'entitats (és a dir, relacions d'aprenentatge entre entitats amb nom).

L'anàlisi de text implica la recuperació d'informació, l'anàlisi lèxica per estudiar les distribucions de freqüència de les paraules, el reconeixement de patrons, l'etiquetatge / anotació, l'extracció d'informació, tècniques de mineria de dades que inclouen l'anàlisi d'enllaços i associacions, la visualització i l'anàlisi predictiva. L'objectiu general és, essencialment, convertir el text en dades per a l'anàlisi, mitjançant l'aplicació del processament del llenguatge natural (PNL), diferents tipus d'algorismes i mètodes analítics. Una fase important d'aquest procés és la interpretació de la informació recollida.

Una aplicació típica és escanejar un conjunt de documents escrits en un llenguatge natural i modelar el conjunt de documents amb finalitats de classificació predictiva o omplir una base de dades o cercar un índex amb la informació extreta. El document és l'element bàsic a l'hora de començar amb la mineria de text. Aquí, definim un document com una unitat de dades textuals, que normalment existeix en molts tipus de col·leccions.


Developed by StudentB